查看原文
其他

【数据分析系列】数据分析之数据清洗概述

美美 美亚柏科 2022-07-05
编者按数据分析是办案过程中必不可少的环节,如何让数据准确合适地说话也成为了从业人员的重要参考依据。美亚柏科作为公安大数据领先企业,对数据分析过程中的各个环节有着丰富的实践经验和深厚的实操积累。
近期,美亚柏科技术专家将为大家带来数据分析系列专题,本期简单介绍数据清洗的内容和一些常见的操作方法。


数据清洗,是数据分析过程中非常重要的环节,直接关系到各个分析环节运用以及分析结果的准确性。在实际业务中,数据清洗通常占据整个分析过程的30%-40%的工作量。那么数据清洗主要有哪些工作呢?

数据清洗工作主要包含文件类型清洗、内容格式清洗、缺失值清洗、数据去重和其他五个方面:

一、文件类型清洗


将不同类型数据清洗成统一类型的文件,例如将TXT、CSV、Excel、HTML以及PDF清洗成统一的excel的文件,便于分析。

二、内容格式清洗


将文件中的内容清洗成统一格式,例如将显示不一致的时间、日期、数值,或者内容中有空格、单引号、双引号等情况进行格式的统一调整。

三、缺失值清洗


根据具体业务,确认缺失值重要范围,哪些是必须要补充的,哪些是可以不用补充的,根据具体业务场景通过文件名、文件关联性等多种途径补充相关缺失值。

四、数据去重


在具体场景中难免遇到重复数据,例如不同批次拿过来的数据,时段有重复,不同平台提供的数据互相之间有重复,同一平台数据重复提取等等,数据交易双方之间数据有重复,如果不去重,分析结果会严重偏离事实。

五、其他


当然还有其他的数据清洗内容,包含去掉不需要的字段、不合理的值等情况。如何去掉不需要的字段,需要专业数据分析师根据具体业务场景做相应的取舍,不合理的值有一部分是原始数据中存在不符合具体场景的英文、数字等等,这些数据也会对分析结果形成干扰,所以在数据清洗阶段也要重视这些数据清洗。

总结


数据清洗阶段当然还包含其他的一些操作,例如数据聚合、数据筛选等等。只有我们对业务、数据场景做详尽的了解,且在数据清洗中有清晰的思路和灵活的方法,才能快速、准确地对业务源数据做精准清洗,形成数据统一格式、统一逻辑,更有利于在后续的分析研判阶段,尽可能准确地找出涉案线索。


本期给大家简单介绍
数据清洗的内容
下一期我们将详细介绍
数据清洗中的类型清洗
敬请期待!

编辑:赖越菲

校对:李银河、蓝雅琦

——— 更多热文 ———

热文

陈景润儿子首登父亲母校厦大讲台:“似曾相识燕归来”

热文

业务赋能!如何快速挖掘汽车电子数据潜在价值,这堂课不容错过!

热文

【远程取证篇】一文揭秘暗网取证!

热文

美亚柏科在线技术支持服务重磅升级

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存